Zgodnie z definicją Organizacji Współpracy Gospodarczej i Rozwoju (OECD) dane skanowane to szczegółowe informacje o dobrach konsumpcyjnych uzyskane dzięki skanowaniu ich kodów kreskowych w punktach sprzedaży. Zaletami tego rodzaju danych są: kompletność już na najniższym poziomie agregacji, relatywnie niski koszt ich uzyskania oraz mnogość obserwacji. Niemniej jednak dane skanowane mają też wady i ograniczenia. Celem artykułu jest wskazanie problemów i wyzwań metodologicznych związanych z uzyskiwaniem, przetwarzaniem i agregacją danych skanowanych wykorzystywanych do szacowania wskaźnika towarów i usług konsumpcyjnych (CPI). Jedna z kluczowych decyzji polega na wyborze formuły indeksowej przeznaczonej dla elementarnych, homogenicznych grup produktów. Istotę problemu wraz z rekomendacjami zademonstrowano na przykładzie dwóch zbiorów danych z portalu Allegro za okres 4.12.2015–28.12.2018, uzyskanych za pomocą narzędzia TradeWatch. Badanie wrażliwości wyników pomiaru dynamiki cen ze względu na wybór formuły indeksu objęło dwie grupy produktów: zegarek męski sportowy oraz fotel biurowy.
Najważniejsze spostrzeżenia są następujące: po pierwsze, różnice między indeksami bilateralnymi a ich łańcuchowymi wersjami mogą być znaczne, co wynika zapewne z dynamicznego charakteru danych skanowanych; po drugie, różnice między wskazaniami indeksów multilateralnych mogą wynosić nawet parę punktów procentowych dla rocznego okna obserwacji; po trzecie, różnice pomiędzy wartościami indeksów GEKS i CCDI są nieznaczne, a różnice między indeksem Geary’ego-Khamisa dla pełnego okna czasowego i okna bieżącego (real time index) przestają być znaczące już po upływie kilku miesięcy; po czwarte, ceny produktów sprzedawanych na platformie elektronicznej, a także wartość i wielkość ich sprzedaży mogą zależeć od dnia tygodnia, a nawet godziny pomiaru.


